Telegram Group & Telegram Channel
Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/26
Create:
Last Update:

Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/knowledge_accumulator/26

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

That growth environment will include rising inflation and interest rates. Those upward shifts naturally accompany healthy growth periods as the demand for resources, products and services rise. Importantly, the Federal Reserve has laid out the rationale for not interfering with that natural growth transition.It's not exactly a fad, but there is a widespread willingness to pay up for a growth story. Classic fundamental analysis takes a back seat. Even negative earnings are ignored. In fact, positive earnings seem to be a limiting measure, producing the question, "Is that all you've got?" The preference is a vision of untold riches when the exciting story plays out as expected.

Knowledge Accumulator from sg


Telegram Knowledge Accumulator
FROM USA